Generated Knowledge Prompting論文
https://scrapbox.io/files/65830d9429cb280024a22695.png
論文情報
タイトル:Generated Knowledge Prompting for Commonsense Reasoning
著者:Jiacheng Liu, Alisa Liu, Ximing Lu, Sean Welleck
発行日:2021年10月
所属: University of Washington
論文の内容を簡単に
概要
外部知識を取り入れることが、事前訓練されたシーケンスモデルの柔軟性を維持しながら、常識推論に有益であるかどうかは、依然としてオープンな問題です。この問題を調査するために、我々は言語モデルから知識を生成し、その知識を質問に答える際の追加入力として提供する「生成知識プロンプト」を開発しました。私たちの方法は、知識統合のためのタスク固有の監督や、構造化された知識ベースへのアクセスを必要とせず、それでも大規模で最先端のモデルのパフォーマンスを数値常識(NumerSense)、一般常識(CommonsenseQA 2.0)、科学常識(QASC)のベンチマークの常識推論タスクで改善し、いくつかのデータセットで最先端の結果を達成しました。生成知識プロンプトは、常識推論を改善するための外部知識としての大規模言語モデルの柔軟性を強調しています。 はじめに
外部知識が常識推論に必要かどうかは、未だに研究中の問題です。一方で、多くの先行研究が外部知識を統合することでタスクのパフォーマンスが向上すると報告しています(Mitra et al., 2019; Bian et al., 2021など)。特にその知識が高品質(例えば専門家によって手作業で作成されたもの)の場合です。しかし、最近のリーダーボードは、ターゲットベンチマークにファインチューニングされた大規模事前訓練モデルによって支配されていることが多く、これは外部知識の利点が、モデルのサイズが大きくなり、より多くの生テキストで事前訓練されるにつれて失われていくことを示唆しています。 この論文では、最大規模の最先端事前訓練モデル(例えば、T5-11b(Raffel et al., 2019)とそのバリアント)の上でも、外部知識が常識推論に役立つかどうかを調査しています。そのために、構造化された知識ベースへのアクセスや知識統合のための共同ファインチューニングを必要としないアプローチを提案しています。
我々の方法の重要な洞察は、言語モデルから有用な知識を生成し、その知識を質問と連結した入力プロンプトとして提供することができるということです。
https://scrapbox.io/files/65a8c5065fb5a80022c82a6b.png
ファインチューニングなしで様々な設定をサポートするためには、知識の質と柔軟性が重要です。我々は、一般的な言語モデルから自然言語ステートメントとして表現された知識ステートメントを数回のショットで引き出すシンプルで効果的な方法を提案しています。これは、以前の研究が提示した質問の明確化(Shwartz et al., 2020)や対照的な説明(Paranjape et al., 2021)によって知識を引き出す方法と比較して、事前に定義されたテンプレートの範囲を超えて柔軟に知識を生成できます。
実験では、我々の方法が数値常識(NumerSense (Lin et al., 2020))、一般常識(CommonsenseQA (Talmor et al., 2019), CommonsenseQA 2.0 (Talmor et al., 2021))、科学常識(QASC (Khot et al., 2020))のベンチマークで、ゼロショットモデルとファインチューニングモデルの両方を改善し、これらのデータセットの3つで新たな最先端を達成したことを示しています。これは、テンプレートベースの知識生成方法self-talk(Shwartz et al., 2020)を上回り、検索ベースのシステムと同等にパフォーマンスします。
生成知識プロンプトのパフォーマンスに寄与する3つの要因は、
(i)知識の質
(ii)知識の量(より多くの知識ステートメントでパフォーマンスが向上する)、(iii)推論時の知識統合戦略
です。我々の定性分析では、生成された知識ステートメントがさまざまなタイプをカバーしており、常識的な質問応答を明示的な推論手順(例えば、既存のファインチューニングされた言語モデルによってサポートされる推論)に変換できることが示唆されています。
2 生成知識プロンプト
多肢選択式の常識推論タスクでは、質問 q ∈ Q が与えられたときに、選択肢の集合 Aq(質問ごとに異なることがあり、有限である)から答え a ∈ Aq を予測します。質問と答えはどちらも可変長のテキストシーケンスです。我々の方法は、常識的な質問に対して2つのステップで回答します。
最初のステップは知識生成で、言語モデル pG(k|q) を使用して、質問に基づいて知識ステートメントを生成します:
https://scrapbox.io/files/65a8c626ab85500022d2b3c7.png
ここで、各知識ステートメント km は可変長のテキストシーケンスです。直感的には、各ステートメントには質問に答えるのに役立つ情報が含まれています(例:表1)。
2番目のステップは知識統合で、生成された知識が推論のために使用される言語モデルの意思決定プロセスに統合されます。
https://scrapbox.io/files/65a8c633b048b900235756ca.png
対照的に、知識なしで推論モデルを使用するバニラ設定は以下のように表されます。
https://scrapbox.io/files/65a8c63d5e69ed0022225726.png
次に、知識生成と統合のステップを詳しく説明します。
2.1 知識生成
言語モデルにプロンプトを与えることで、質問に関連する知識ステートメントを生成します。プロンプトには、指示、各タスクに固定されたいくつかのデモンストレーション、新しい質問のプレースホルダーが含まれます。デモンストレーションは人間が書いたもので、タスクのスタイルに合わせた質問と、この質問に答えるのに役立つ知識ステートメントで構成されます。特定のタスクについて、表2のフォーマットを使用して5つのデモンストレーションを書きます。
https://scrapbox.io/files/65a8cb6881f6ea002302bcde.png
質問は(利用可能な場合はトレーニングセットから選択し)、タスクによって提示される課題を代表するものにします(例:数値常識、科学常識)。我々は、各質問を直接答えることなく、明示的な推論手順に変換する知識ステートメントとペアリングします。たとえば、知識ステートメント「鳥は2つの翼を持っている。ペンギンは鳥の一種である。」は、質問「ペンギンは <mask> 翼を持っている」と役立ちます。なぜなら、それは問題を演繹的推論に変換するからです。一方、「ペンギンは2つの翼を持っている。」は、我々のガイドラインに従って示すための知識ステートメントとしては不適切です。
新しい質問 q に対して知識を生成する際には、質問をプレースホルダーに挿入し、このプロンプトの生成された続きを繰り返しサンプリングして、知識ステートメントのセット Kq = {k1, k2, . . . , kM} を取得します。我々が評価するすべてのタスクにおける完全なプロンプトについては、付録 A.2 を参照してください。
2.2 プロンプトによる知識統合
知識統合のステップでは、推論モデルと呼ばれる言語モデルを使用して、生成された各知識ステートメントで予測を行い、最も自信のある予測を選択します。具体的には、各知識ステートメントを使用してモデルをプロンプトし、M個の知識拡張質問を形成します:
https://scrapbox.io/files/65a8ccbbc2001d0024052082.png
推論モデルのもとで最もサポートされる拡張質問を使用して、各回答選択肢 a に対する集約スコアを計算します:
https://scrapbox.io/files/65a8ccca6dd7a60022cf913e.png
直感的には、これは選択肢の一つを強く支持する知識ステートメントを優先します。その後の予測される回答は、
https://scrapbox.io/files/65a8cce13e21a600235c8416.png
これは、知識ステートメントの一つから最もサポートされている選択肢です。この予測は単一の知識ステートメントを使用し、我々はそれを選択された知識と呼びます:
https://scrapbox.io/files/65a8cceef65e1e0023bea76c.png
推論モデルは、既存の言語モデルであり、タスクでオフ・ザ・シェルフ(つまりZero-Shot)またはファインチューニングされる可能性があります。私たちは知識プロンプトを使用して、さらなるファインチューニングは行いません。 3 実験セットアップ
ここでは、我々の方法の実装の詳細と、それが各タスクにどのように適応されるかを説明します。知識生成には、GPT-3(Brown et al., 2020)を基礎とする言語モデルを使用し、ここでのFew-Shotプロンプト方法が最も効果的です。私たちは、核サンプリング p = 0.5(Holtzman et al., 2019)を使用して、各質問に対して M = 20 の知識ステートメントを生成し、繰り返しや空文字列を破棄します。生成は、64トークンを超えるか、\n トークンに到達した時点で終了します。 推論には、オフ・ザ・シェルフのT5とGPT-3、および各データセットで最先端のファインチューニングモデル(UnifiedQA(UQA)、Unicornを使用します。以下のタスクセットアップで詳細を参照してください。
3.1 データセットとタスクセットアップ
我々は、さまざまな課題と問題フォーマットをカバーする4つの常識推論データセットで方法を評価します。
NumerSense(Lin et al., 2020)は、一般的なオブジェクトや概念に関する数値的な記述からマスクされた数詞を回復する必要があるデータセットです。選択肢はゼロから十までの整数と、単語「no」なので、問題は多肢選択問題として扱うことができます。NumerSenseは診断データセットであるため、現在のSOTAであるゼロショット推論モデルのみを使用します。我々は、最先端のゼロショットT5を使用し、テキストインフィリングセットアップでZhang(2021)に従い、トークン上で最も高い尤度を持つ選択を選択します。また、ゼロショットGPT-3推論を実装し、各選択を質問に挿入し、全選択肢にわたって正規化された文章全体の生成確率として選択確率を計算します。 CommonsenseQA(CSQA)(Talmor et al., 2019)は、一般的な世界シナリオに関する5つの選択肢を持つQAデータセットです。ゼロショットおよびファインチューニングされたT5モデルで推論を行います。ゼロショットT5では、質問をテキストインフィリングとしてフォーマットし、最も高いシーケンス・トゥ・シーケンス言語モデリング確率を持つ選択を予測します。ファインチューニングされたT5(SOTAであるUnifiedQAを含む)では、Khashabi et al.(2020)と同じセットアップを使用します。
CommonsenseQA 2.0(CSQA2)(Talmor et al., 2021)は、常識的なステートメントが真か偽かを判断するバイナリ分類データセットです。このデータセットでは、ゼロショットモデルの校正が不十分であるため、ファインチューニングされたモデルのみで推論を行います。現在のSOTAであるファインチューニングされたUnicorn(Lourie et al., 2021)を使用し、Talmor et al.(2021)のセットアップに従います。 QASC(Khot et al., 2020)は、小学校の科学に関する8つの選択肢を持つQAデータセットです。このデータセットには、各質問に対する2つの背景知識が含まれており、その構成は質問に完全に答えます。ゼロショットT5およびファインチューニングされたT5(SOTAであるUnifiedQAを含む)を使用し、CSQAと同じセットアップを使用します。
3.2 推論モデルセットアップ
我々が使用するすべての推論モデル(T5、UnifiedQA、Unicorn)は生成言語モデルであるため、推論モデルによる選択肢へのサポートは
https://scrapbox.io/files/65a8cd826d3451002320c090.png
そして aiは選択肢 a の i 番目のトークンです。
3.3 知識生成のベースライン
我々は、以下のベースラインと比較することで、私たちの知識生成方法(略してK)の影響を研究します:
- 無知識(∅):知識ステートメントなしでの推論をバニラベースラインとして参照します。
- ランダム文(R):質問に条件付けせずに言語モデルからランダムな文をサンプリングします。知識生成方法と同じ実装セットアップ(すなわちGPT-3を使用し、同じハイパーパラメーターを使用)を使用します。
- コンテキスト文(C):質問のコンテキストから文をサンプリングします。これは、言語モデルからの質問のテキスト続きをサンプリングすることで実装されます。知識生成方法と同じ実装セットアップを使用します。
- テンプレート生成知識(T):自己対話(Self-talk)(Shwartz et al., 2020)は、手作業で設計されたテンプレートを使用して、言語モデルから知識ステートメントを引き出します。公平な比較のために、self-talkの知識生成にGPT-3を使用し、質問ごとに生成される数をM = 20に制限します。テンプレートと他のハイパーパラメーターは、元の論文と同じです。
- 検索ベースの知識(IR):生成されるのではなく、適切な情報源から知識が取得されます。次の検索ベースの方法を検討します。NumerSenseに対しては、WikipediaやGenericsKBからの文が取得されます。CSQA2では、質問をGoogleに問い合わせた際に返されるスニペットを使用します。QASCでは、各質問を作成するために使用された関連する事実文を使用します。
- 回答(A):知識を生成する代わりに、GPT-3に質問に直接答えるように促します。プロンプトでは、知識生成と同じ入力質問を使用しながら、知識ステートメントを正解で置き換えます。2つのベースラインを検討します:(1)質問ごとに1つの回答を生成し、これを使用してフューショットGPT-3推論モデルのパフォーマンスを測定します。(2)質問ごとにM = 20の回答を生成し、これらの回答をSOTA推論モデルのプロンプトに使用します。
4 実験結果
示されるとおり、私たちの生成知識プロンプト方法は、評価するほとんどのデータセットで新たな最先端の結果を達成し、ゼロショットとファインチューニングの両方の設定でうまく機能します。特に、我々の知識生成は、単純なベースラインやテンプレートベースの知識生成を上回り、検索ベースのシステムと同等です。
4.1 全体的なパフォーマンス
表3は、我々のタスクセットアップに従ったゼロショットおよびファインチューニングモデルの結果を示しています。
https://scrapbox.io/files/65a8cdda8fdbd50025bdd3c4.png
- 新たな最先端:私たちは、以前の最先端で使用された同じ推論モデルの上に私たちの方法を適用します。NumerSenseでは、以前の最高の方法(ゼロショットT5モデルに基づく)を6%(66.18 → 72.47)改善します。CSQA2の非検索ベースの方法の以前の最先端は、ファインチューニングされたUnicornモデルに基づいており、我々はそれを2%(70.2 → 73.03)改善します。QASCの以前の最高は、ファインチューニングされたUnifiedQAモデルに基づいており、我々はそれを3%(76.74 → 80.33)改善します。
- ゼロショット設定:表3のA、B1、D1の列は、我々の方法がNumerSense(64.05 → 72.47)、CSQA(39.89 → 47.26)、QASC(44.89 → 55.00)でゼロショット推論モデルを大幅に改善することを示しています。
- ファインチューニング設定:表3のB2、C、D2の列は、我々の方法がファインチューニングされた推論モデルによって設定されたバニラベースラインを一貫して改善していることを示しています(ただし、ゼロショット設定よりも小さいマージンです)。
4.2 知識生成方法
表3は、異なる知識生成ベースラインでのパフォーマンスを報告します。一般的に、ランダムな文はほとんど役に立たず、推論モデルを妨げることさえありますが、質問のコンテキスト文はいくらかの利益をもたらします。対照的に、我々の方法によって生成された知識は一貫して大幅なパフォーマンス向上につながり、これは我々の知識が高品質であることを意味します。
- 知識は不可欠な要素です。フューショットGPT-3モデルは、直接的な常識問題への回答において校正が不十分であり、すべてのタスクで最良のモデルよりも14%から20%低いパフォーマンスを示します。フューショットGPT-3で生成された回答をSOTA推論モデルのプロンプトに使用しても、我々が検討したほとんどすべてのタスクとモデル(CSQAでT5推論を行う1つの例外を除く)で、我々の方法よりも大幅に劣ります。知識を媒体として、我々の方法はGPT-3が持つ有用な情報を効果的に活用し、さまざまな常識推論タスクでSOTAモデルを改善することができます。
我々の知識はテンプレート生成知識を上回ります。CSQA開発セットで、我々の知識生成方法とテンプレートベースの自己対話を比較しました。(CSQAは、自己対話テンプレートが利用可能な唯一のタスクです。)我々の方法は、T5-11bベースラインに対して、自己対話よりも大きな改善(1.89%)をもたらし、モデルから役立つ知識を引き出すのにより優れていることを示しています。
我々の知識は検索ベースの知識と比較可能です。NumerSenseでは、検索された知識はテストコアで0.18%、テスト全体で1.02%しか推論パフォーマンスを改善しませんが、我々の方法はそれぞれ8.83%と7.37%でこれを上回ります。これは、緩やかに関連する知識ベースから検索された知識が、我々が生成した知識よりもはるかに役に立たない可能性があることを示しています。CSQA2では、我々はウェブ検索された知識を上回ることはできませんが、Google検索を参照せずにパフォーマンスのギャップを埋めます。QASCでは、「検索された」知識は実際にはデータセットを構築するために使用された知識ベースからのゴールド知識です。その結果、我々の生成した知識は検索された知識よりも大幅に劣ります。要約すると、我々の生成した知識は、下流パフォーマンスの観点から検索された知識と大まかに比較可能であり、適切なドメイン内知識ベースから検索することができない場合に最も価値があります。
4.3 分析
より多くの知識でより良いパフォーマンス
我々は生成された知識ステートメントの数、Mの影響を分析し、図2に結果を示します。一般に、知識ステートメントの量が増えるにつれてパフォーマンスが向上します。これはM = 20で飽和し、より多くの知識ステートメントが導入されると減少し始めます。これは、より多くの雑音の多い知識が生成されるためかもしれません。知識統合方法。§2.2で説明した知識統合方法に加えて、我々は2つの代替案、専門家の混合(MoE)と専門家の積(PoE)(Hinton, 2002)を実験しました。これらは、それぞれ方程式1に以下の変更を加えます:
https://scrapbox.io/files/65a8ce2af65e1e0023bedfa7.png
表4の結果は、我々の知識統合方法 - つまり、最良の知識に頼るための適応的な選択 - が3つの中で最良であることを示しています。
https://scrapbox.io/files/65a8ce4713d8280023e1eeaf.png
軽量推論モデルと増幅。我々は、推論モデルのサイズが改善の大きさに影響を与えることを発見しました。図3は、異なるサイズの推論モデルの上でのNumerSenseパフォーマンスの向上を示しています。より小さな推論モデルを使用すると、パフォーマンスの向上が劇的に増加します。特に、我々の方法では、最小のT5モデルがT5-3bベースラインと同じくらい強力であり、T5-largeはGPT-3ベースラインを上回ります。これは、モデル生成知識が、高性能でありながら軽量な推論モデルを可能にすることを示しています。さらに、知識生成モデルと同じくらい大きくなると、推論モデルによる改善は減少しません。GPT-3による推論は、自身から引き出された知識によって9.0%向上することができます。これは、我々の方法がモデルがすでに持っている有用な知識をいくらか増幅し、より良い予測につながることを示しています。
知識生成モデルのサイズ
Figure 4は、異なるサイズのGPT-3を知識生成モデルとして使用した場合のNumerSenseパフォーマンスの向上を示しています。T5-11b推論モデルの上で、6.7B知識モデルは5.0%の改善をもたらし、175B知識モデルによる10.5%の改善よりも狭い範囲です。1.3Bおよび0.4B知識モデルは顕著な改善をもたらしません。したがって、知識源として最大のバージョンのGPT-3を必ずしも必要とはしませんが、有用で信頼性のある知識を生成するためには、モデルが比較的大きい必要があります。
https://scrapbox.io/files/65a8ce98b048b90023583f08.png
4.4 人間による評価
NumerSenseとQASCで人間による評価を行い、生成された知識の質とそのタスクパフォーマンスへの影響の解釈可能性を研究しました。
評価
知識ステートメントの質は、次の4つの軸で報告されます:(1) 文法的:文法的であるかどうか、(2) 関連性:質問で述べられたトピックや概念に関連しているかどうか、(3) 事実性:(主に)事実的に正しいかどうか、(4) 役立ち度:質問に対する答えを直接的または間接的に助けるかどうか、これは有用(つまり、正しい答えをサポートする)、有害(つまり、正しい答えを否定するか間違った答えをサポートする)、または中立(有用でも有害でもない)の3つのカテゴリのいずれかに該当する可能性があります。これらの指標は、Shwartz et al. (2020) から適応されており、付録A.3で定義されています。
各データセットから、T5-11bの予測の正確性を変更する(つまり、モデル予測を間違ってから正しく、または正しくから間違ってに導く)最大50の選択された知識(§2.2)をサンプリングします。これらの知識は、2人のNLP専門家によってラベル付けされ、適度な合意が達成されました(Fleiss Kappa κ = 0.57(Landis and Koch, 1977))。客観性を保つため、アノテーターには知識がモデル予測を修正するか誤導するかが明らかにされません。
結果
図5は結果をまとめています。選択された知識の大多数は文法的で質問に関連しており、83%が事実的に正しいとされます。72%が人間の評価者によって質問に答えるのに役立つと見なされ、13%が有害です。モデル予測を修正する知識ステートメントのうち、93%が人間の評価者によって有用とラベル付けされています。
https://scrapbox.io/files/65a8cf18b41a4a0024ffbbf5.png
対照的に、知識ステートメントがモデルを誤導する場合、21%のみが有用とラベル付けされ、39%が有害です。人間によって有用と判断され、モデル予測を修正する知識の95%が事実的である一方で、人間によって有害と判断され、モデル予測を誤導する知識の86%が非事実的であることから、知識の事実性を改善することがより有用な知識に向けた有望な道であることが示唆されます。また、選択されていない知識を分析し、これらのステートメントが選択された知識よりも事実性と役立ち度がわずかに低いことがわかりました。
https://scrapbox.io/files/65a8cf1ff65e1e0023bf0856.png
4.5 定性的な例
表5は、生成された知識がモデル予測を修正するいくつかの例を示しています。スペースの制約のため、各質問に対して選択された知識(§2.2)のみを示しています。すべての例で、促された知識なしのモデルは正しい答えよりも間違った答えに高いスコアを割り当てていますが、知識プロンプトを使用することで、正しい答えにはるかに高いスコアが割り当てられます。生成された知識を使ったプロンプトは、常識的な推論を類推、演繹、類推、アブダクティブ推論、論理的除外、否定、数的推論などの明示的な推論手順に変換することができます。
https://scrapbox.io/files/65a8cf8e4beb580024fe2d73.png
5 関連研究
事前学習された言語モデルから知識を引き出すことができます。
多くの研究が、事前学習された言語モデルが条件付き生成を介して照会できる多量の知識を暗黙的に含んでいることを示しています(Davison et al., 2019; Petroni et al., 2019; Jiang et al., 2020)。その結果、これらのモデルは、常識的な推論(Trinh and Le, 2018; Yang et al., 2020)、テキスト分類(Shin et al., 2020; Puri and Catanzaro, 2019)、自然言語推論(Shin et al., 2020; Schick and Schütze, 2021)などのタスクで直接推論を行うことができます。これらの観察に触発されて、我々は言語モデルから質問関連の知識を明示的な形で引き出し、推論を導くためにそれらを使用します。
常識的な推論のための外部知識の活用
いくつかの研究では、外部の常識的な知識ベースを使用して、常識的な推論を含むさまざまなNLPタスクの改善に取り組んでいます。一つのアプローチは、知識ベースでの事前学習(Ma et al., 2021; Chang et al., 2020; Mitra et al., 2019; Zhong et al., 2019)または追加の取得知識で推論できるようにモデルをファインチューニングすることによって、言語モデルに常識的な知識を注入することです(Chang et al., 2020; Mitra et al., 2019; Bian et al., 2021)。別の方向性は、質問を知識グラフに基づけ、グラフベースの推論で推論を行うことです(Lin et al., 2019; Lv et al., 2020; Yasunaga et al., 2021)。 これらの方法の一般的な前提条件は、高品質で高いカバレッジを持つ、ドメイン内の常識的な知識ベースです(Ma et al., 2019)。一部の常識的な推論データセットは、既存の知識ベースから派生しています。たとえば、CommonsenseQA(Talmor et al., 2019)はConceptNet(Speer et al., 2017)から、Social IQA(Sap et al., 2019b)はATOMIC(Sap et al., 2019a)から派生しています。これらの方法に共通する前提条件は、高品質で高カバレッジな、ドメイン内の常識知識ベースです(Ma et al., 2019)。いくつかの常識推論データセットは、既存の知識ベースから派生しています。例えば、CommonsenseQA(Talmor et al., 2019)はConceptNet(Speer et al., 2017)から、Social IQA(Sap et al., 2019b)はATOMIC(Sap et al., 2019a)から派生しています。そのようなデータセットに対しては、それを導いた基礎となる知識ベースから関連知識を引き出すのが自然であり、通常、これによってかなりの成果が得られます(Mitra et al., 2019; Chang et al., 2020)。しかし、データセットと知識ベースの間にドメインの不一致がある場合、そのような成果は減少する傾向にあります(Mitra et al., 2019; Ma et al., 2019)。これは、適切な知識ベースがないデータセット(例:NumerSense(Lin et al., 2020)やCommonsenseQA 2.0(Talmor et al., 2021))に遭遇するとき、またはシステムが既存の知識ベースで表現されている常識のドメインに収まらない常識クエリを扱う必要があるときのボトルネックとなります。私たちの研究は、事前学習された言語モデルを常識知識の源として活用することで、この難しさを克服します。
推論中に生成されたテキストを追加することについて
最近、いくつかの研究では、モデル生成したテキスト、例えば明確化、説明、暗示などを質問に追加することで、常識推論におけるモデルのパフォーマンスが向上することが示されています。Self-talk(Shwartz et al., 2020)は、質問内の概念に対する明確化を引き出し、それを推論モデルの入力に追加します。対照的な説明(Paranjape et al., 2021)は、二つの回答選択肢を対比する生成された説明で推論モデルを促します。前述の方法は、生成器に問い合わせるためのタスク固有のテンプレートに依存しており、これは限られた種類の知識しか引き出せず、新しいタスクへの移行には慎重な手作業が必要であることを意味します。他の説明ベースの方法(Latcinnik and Berant, 2020; Rajani et al., 2019)は、質問の増強に使用される説明を生成するように生成器モデルを微調整します。DynaGen(Bosselut et al., 2021)は、事前学習された常識モデルを使用して質問の暗示を生成し、自然言語ステートメントの動的グラフを構築し、その上で推論を行います。しかし、COMeT(Bosselut et al., 2019)を生成器として使用するため、その適用性は社会常識のドメインに限定されています。私たちの
研究は、この一般的な研究の方向に貢献していますが、タスク固有のテンプレートや微調整された知識生成器から知識を引き出すこれらの以前の方法とは異なり、私たちの方法はタスクのスタイルで人間が書いたわずかなデモンストレーションのみを必要とし、はるかに柔軟で移行しやすく、エンジニアリング効率が高いです。
6 結論
我々は、生成された知識プロンプティングという、言語モデルから知識を引き出し、統合するためのシンプルな方法を紹介します。特に、我々は、タスク固有の、人間が書いた、少数ショットの質問-知識ペアのデモンストレーションで言語モデルをプロンプトして、知識ステートメントを生成します。我々は、知識を推論時に単純にプラグインすることで統合できることを示し、知識統合のためのモデルの微調整は必要ありません。私たちの方法は、複数のデータセットで効果を示し、3つの常識推論タスクで新たな最先端を設定し、さまざまな設定で機能します。この方法の成功は、言語モデルが常識推論のための柔軟で高品質な知識の源としての可能性を強調しています。